http://www.arocmag.com/article/02-2019-05-007.html 


基于 卷 积 神经 网 络 和 Tree-LSTM 的 微 博 情感 分 析 


EXS ERW, KEI 
(郑州 大 学 信息 工程 学 院 ， 郑州 450001) 


摘 要 : 微 博 情感 分 析 旨 在 研究 用 户 关 于 热点 事件 的 情感 观点 ， 研 究 表明 深度 学 习 在 微 博 情感 分 析 上 具有 可 行 性 。 针 
对 传统 卷 积 神经 网 络 进行 微 博 情感 分 析 时 忽略 了 非 连 续 词 之 间 的 相关 性 ， 为 此 将 注意 力 机 制 应 用 到 卷 积 神经 网 络 
(CNN) 模型 的 输入 端 以 改善 此 问题 。 由 于 中 文 微 博 属 于 短文 本 范畴 ， 卷 积 神经 网 络 前 向 传播 过 程 中 池 化 层 特 征 选择 
存在 丢失 过 多 语义 特征 的 可 能 性 ， 为 此 在 卷 积 神 经 网 络 的 输出 端 融入 树 型 的 长 短期 记忆 神经 网 络 (LSTM)， 通 过 添加 
句子 结构 特征 加 强 深 层 语 义学 习 。 在 两 种 改进 基础 上 构造 出 一 种 微 博 情感 分 析 模 型 (Att-CTL)， 实 验 表明 该 模型 在 微 
博 情感 分 析 上 具有 优良 的 特性 ， 尤 其 在 极 性 转移 方面 仍 保持 较 高 的 Fl 值 。 

关键 词 : 卷 积 神经 网 络 ; 注意 力 机 制 ; 长 短期 记忆 神经 网 络 ; 微 博 情感 分 析 
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Sentiment analysis of micro-blog based on CNN and Tree-LSTM 


Wang Wenkai, Wang Liming, Chai Yumei 
(School of Information Engineering, Zhengzhou University 450001, China) 


uu Abstract: Micro-blog sentiment analysis aims to study the emotional views of users on hot events, and research shows that deep 


learning is feasible in micro-blog's sentiment analysis. In view of traditional convolutional neural network, micro-blog sentiment 


analysis ignores the correlation between discontinuous words. Therefore, this paper applied attention mechanism to the input 


end of convolutional neural network (CNN) model to improve this problem. Because Chinese micro-blog belongs to the short 


text category, there was a possibility of losing too many semantic features in the selection of pooling layer features in the process 
of convolutional neural network forward propagation, so into the long short term memory neural network tree at the output of 
the convolutional neural network terminal (LSTM) , by adding the sentence structure to strengthen the deep semantic learning. 
Based on the two improvements, it constructed a Chinees micro-blog sentiment analysis model (Att-CTL) . Experiments show 
that the model has excellent characteristics in Chinese micro-blog sentiment analysis, especially in polarity shifting, and 
maintains a high F1 value. 


Key words: CNN; attention mechanism; LSTM; micro-blog sentiment analysis 


卷 积 神经 网 络 (CNN) 是 主流 的 深度 学 习 模 型 ， 已 很 好 地 
运用 到 文本 分 类 上 B 35。 传统 卷 积 神经 网 络 进 行文 本 建 模 时 , 滑 
随 着 社交 网 络 的 快速 发 展 ， 用 户 可 以 运用 微 博 、 博 客 、 社 。” 动 窗口 对 微 博 句 子 卷 积 操作 ， 提 取 的 特征 是 局 部 相连 词 之 间 的 
区 等 平台 来 抒发 自己 的 情感 ， 通 过 微 博 、 博 客 等 分 析 社 交 网 络 寺 征 ， 忽 略 非 相连 词 之 间 的 长 距离 相关 性 。 研 究 发 现在 微 博文 
中 用 户 的 情感 倾向 引起 了 学 术 界 的 广泛 关注 由。 本 中 存在 极 性 转移 , 张 小 倩 四 对 极 性 转移 现象 进行 了 研究 分 析 ， 
情感 分 析 又 称 倾 向 性 分 析 和 意见 挖掘 ， 对 主观 性 文本 进行 ”将 其 大 致 分 为 强调 、 和 否定、 转折 三 类 。 极 性 转移 现象 与 非 连 续 
分 析 、 处 理 、 归 纳 和 推理 的 过 程 。 目 前 情感 分 析 的 主要 研究 方 词 的 情感 相关 性 密切 相连 。 这 种 非 连 续 词 之 间 的 相关 性 是 传统 
法 大 多 是 基于 机 器 学 习 的 传统 算法 ， 但 是 机 器 学 习 算 法 外 借助  — 卷 积 神经 网 络 最 大 的 限制 。 本 文采 用 注意 力 机 制 来 解决 这 个 问 
于 大 量 人 工 标 注 的 特征 来 确定 给 定 文本 的 情感 极 性 。 机 器 学 习 ” 题 ， 通 过 注意 力 机 制 可 以 捕获 长 距离 上 下 文 之 间 的 相关 性 。 关 
算法 虽然 性 能 优越 ， 但 需要 大 量 的 人 工 和 领域 知识 ， 特 征 扩展 。” 于 注意 力 机 制 在 文章 的 第 3 章 将 重点 介 闸 述 。 微 博多 为 短文 本 ， 
性 不 灵活 ， 而 从 大 量 训练 数据 中 主动 学 习 特 征 的 深度 学 习 方法 ”含有 较 少 的 特征 信息 ， 卷 积 神经 网 络 在 池 化 层 进行 特征 选择 时 
较为 适用 。 可 能 丢失 较 多 的 信息 特征 影响 情感 分 析 的 准确 性 ， 并 且 卷 积 神 
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经 网 络 模型 是 将 文本 看 做 有 序列 的 词语 组 合 ， 仅 考虑 了 文本 的 ”在 的 情感 语义 特征 。 本 文 深 度 神经 网 络 模型 〈 图 1) 的 构造 从 
有 序 性 信息 而 忽略 了 文本 在 语义 上 的 结构 性 。 结 构 化 模型 则 试 。 ”以 三 个 方面 考虑 : a) 通过 在 卷 积 神经 网 络 模 型 的 输入 端 引 入 注 
图 将 文本 看 做 有 结构 的 词语 组 合 ， 使 得 在 学 习 文 本 特征 时 能 意 力 机 制 学 习 非 连续 词 之 间 的 语义 相关 特征 ; b) 在 卷 积 神经 网 
充分 保存 文本 的 结构 特征 。Tai 等 人 中 利用 LSTM 模型 试 以 一 络 的 输出 端 融 入 长 短期 记忆 神经 网 络 学 习 到 的 句子 结构 特征 ; 
种 树 型 结构 来 描述 文本 ， 该 模型 在 情感 分 析 上 取得 了 不 错 的 效 。 c) 卷 积 神经 网 络 和 长 短期 记忆 神经 网 络 以 联合 训练 的 方式 学 习 
果 。 本 文 也 采用 树 型 的 LSTM 网 模型 , 以 提取 人 句子 的 结构 特征 。 句子 内 语义 信息 和 结构 特征 。 
总 结 以 上 分 析 ， 本 文 在 卷 积 神经 网 络 模型 的 基础 上 ， 在 模 如 图 1 所 示 ， 模 型 以 微 博 句子 的 分 布 式 词 向 量 作为 模型 的 
型 输入 端 添加 注意 力 机 制 ， 在 模型 输出 端 融合 树 型 结构 的 原始 输入 ; 模型 左边 部 分 为 长 短期 记忆 神经 网 络 的 结构 语义 

LSTM, 得 到 最 终 的 情感 分 析 模 型 。 通 过 在 公开 数据 集 上 的 实验 ，“ 习 ， 其 输出 为 ht; A 
与 现 有 结果 相 比 ， 证 明 本 文 所 构建 模型 的 有 效 性 。 学 习 ， 其 输出 为 hb， 最 后 联合 语义 学 习 隐 藏 层 作为 分 类 器 的 输 


入 进行 情感 分 类 。 
1 ”相关 工作 a 


1.1 神经 网 络 
随 着 深度 神经 网 络 在 文本 建 模 上 的 不 断 深入 ， 研 究 主 要 外 
中 在 卷 积 神经 网 络 和 长 短期 记忆 神经 网 络 上 。KimBl 在 2014 年 


最 终 表 示 S” 


pau 


将 卷 积 神经 网 络 成 功 地 应 用 在 句子 建 模 上 。Kalchbrenner 等 人 Teei CN 
外 对 卷 积 神经 网 络 的 结构 进行 优化 ， 采 用 两 个 卷 积 层 ， 并 提出 me x 
一 种 新 的 动态 池 化 策略 捕获 句子 内 长 距离 词 之 间 的 相关 性 ， 以 ^ 
此 提高 情感 语义 的 合成 性 能 。Zhou 等 人 器 结 合 卷 积 神经 网 络 和 rr 
长 短期 记忆 神经 网 络 ， 用 卷 积 操作 提取 序列 短语 特征 做 为 di 
LSTM 的 输入 最 终 获得 句子 表示 。Zhou ABH LSTM 学 习 . DoM 
图 1 注意 力 机 制 的 卷 积 长 短期 神经 网 络 (Att-CTL) 
句子 的 历史 信息 ， 然 后 将 每 一 时 刻 的 输出 作为 卷 积 神经 网 络 的 
输入 ,不 同 的 是 其 CNN 采用 二 维 的 方式 进行 卷 积 核 池 化 操作 。 Att-CTL 的 模型 描述 和 情感 分 析 算 法 如 下 : 
文献 [5,8] 只 是 将 卷 积 神经 网 络 和 长 短期 记忆 神经 经 网 络 以 链 式 输入 : 训练 语 料 X 和 对 应 标签 Y。 
的 拼接 ， 在 一 定 程度 上 提高 了 句子 建 模 的 效果 。 以 上 这 些 方法 数据 预 处 理 : 截取 微 博 为 相同 长 度 ， 句 子 词 较 少 的 用 9 填充 。 
以 自主 学 习 的 方式 为 语言 建 模 更 为 本 质地 刻画 语言 特征 ， 从 而 初始 化 所 有 模型 参数 为 小 的 随机 值 。 
能 提高 利用 机 器 学 习 方法 解决 这 些 传统 任务 时 的 性 能 。 在 遇 到 终止 条 件 前 
1.2 情感 分 析 HFIP RA X, y >: 
微 博 情感 分 析 通 常 采用 文本 情感 分 析 四 的 相关 技术 。Pang 1. 把 输入 沿 网 络 前 向 传播 : 

a SEI CRETE A CNN 卷 积 池 化 后 的 最 终 句子 表示 : h, 
随后 许多 人 尝试 设计 更 好 的 工程 特征 或 者 使 用 基于 句法 结构 的 TreeLSTM 的 根 节点 的 隐藏 输出 ， Moor 
极 性 转移 规则 来 提升 情感 分 析 的 准确 率 。 这 些 模型 都 是 基于 词 最 终 句子 特征 表示 : S = h, + ho 
袋 模型 ， 无 法 获取 到 文本 中 的 深层 语义 信息 ， 因 此 效果 并 不 理 Softmax 层 微 博 情感 极 性 的 概率 计算 : 
想 。Santos 等 人 09 提 出 了 CharsCNN 模型 ， 将 两 个 卷 积 层 分 别 PO | P) = soft max Cw, : S +b,) 
学 习 词语 的 构造 特征 和 句子 的 语义 特征 ， 进 行情 感 分 析 取 得 较 代价 函数 ，J(w,b) 
好 结果 。Bahdanau 等 人 [1 首次 将 注意 力 机 制 用 到 自然 语言 处 理 2. 反 向 传播 更 新 模型 权 值 wb 
方面 ， 处 理 源 语言 与 当前 目标 语言 之 间 的 关联 性 。 本 文 受 他 们 wee-w+Aw,b<b+Ab 
启发 将 注意 力 机 制 引用 到 卷 积 神经 网 络 模型 的 输入 端 ， 以 解决 mp WWb) pp- FWD) 
情感 分 析 中 非 连 续 词 相关 性 问题 。 Socher 等 人 51 利用 改进 的 w b 
递归 模型 获取 句子 语义 特征 ， 处 理 情感 分 析 问 题 中 语义 合成 的 。 2.1.1 基于 注意 力 机 制 组 合 词 向 量 特征 

问题 。 考 虑 到 递归 神经 网 络 独特 的 优势 ， 本 文 另 辟 蹊 径 将 递归 为 获得 词语 的 语义 信息 ， 通 过 skip-gram 模型 05 来 训练 词 
神经 网 络 最 终 的 分 布 式 表 示 融 入 卷 积 神经 网 络 的 输出 端 。 向 量 。 其 中 skip-gram 模型 原理 是 根据 给 由 给 定 中 心 词 预测 周 
2 ”混合 神经 的 微 博 情感 分 析 算法 围 的 词 ， 假 设 句子 中 的 词组 序列 为 WwW,Ww,…,w, ， 模 型 通过 训练 

使 式 中 (1) 的 条 件 概率 最 化 : 
BA "Tum 

2.44 混合 神经 网 络 模型 构造 IY DETUR. T 


深度 学 习 的 方法 可 通过 自我 学 习 的 方式 来 学 习 到 微 博 中 内 1-1 -esiScz0 


201804.02068v1 


" 
r 


Xiv 


china 


录用 稿 
其 中 : o 是 当前 词语 的 上 下 词 数 ，e 值 越 大 训练 样 例 越 多 训练 效 
果 越 好 ， 但 训练 时 间 相应 增加 。 


在 微 博 句子 中 的 一 些 否 定 词 、 程 度 副 词 、 转 折 词 等 的 使 用 


可 能 导致 句子 的 情感 极 性 偏 移 。 这 种 情感 极 性 转移 现象 与 非 连 
续 词 的 情感 相关 性 密切 相连 。 针 对 微 博 的 这 种 语言 现象 ， 在 


skip-gram 模型 训练 的 词 向 量 基础 上 采 / 


注意 力 机 制 重组 词 向 


三 


层 引 入 到 原始 词 向 量 输入 层 与 卷 积 层 之 间 ， 其 


注意 力 机 制 
具体 实现 如 图 2 所 示 。 注 意 力 机 制 
文 向 量 。 
它 将 最 为 卷 积 神经 网 络 卷 积 
距 其 远 的 词 往往 有 较 小 的 相关 性 。 因 此 ， 
用 到 注意 力 机 制 上 。 


REN 
下文 向 量 连 接 词 向 量 组 合成 一 个 新 的 词 向 量 表示 ， 


个 词 创 建 一 个 上 


层 的 输入 。 直 观 地 说 ， 一 对 彼此 相 


该 模型 将 距离 衰减 应 


区 | 


构建 图 


2 中 词 


2 重组 上 下 文 词 向 量 


向 量 矩 阵 Xe R^", ， 词 向 量 矩 阵 的 表示 : 
X -[x, x, X] ， Ñ eR’ 其 中 l 是 给 定 句子 的 


词 向 量 的 纬度 。 注 意 力 机 制 的 思想 是 在 生成 二 的 上 下 文 向 量 8， 


时 ， 将 注意 力 集中 在 特定 的 有 意义 的 词 | 
预测 句子 情感 类 型 时 要 注意 哪些 词 比 句子 中 的 其 


关注 。 包 含 上 


Si; 一 
j 


其 中 : Qi 是 注意 力 机 制 权 


E 


lim 


正则 化 技术 使 ,Qj 71. j 


score(x,, x,) = v tanh(w, [x, ® xp 


文 信息 的 词 向 量 表示 为 
X ax 
ziseitn 


， 要 求 wj 20, 


F。 这 种 机 制 决定 了 在 


也 词 更 应 该 受 


(2) 


且 通 过 SoftMax 


其 中 score(%,x)) 就 是 通过 MLP 实现 的 ， 


Q6. X, zi) 的 相关 性 。 


FE 意 力 机 制 权 重 的 计算 方程 为 


(3) 


(4) 
] MLP 来 建 模 词 对 


情感 分 类 实例 : 
有 一 行 巧 妙 的 对 白 。 


在 这 人 句 话 中 ， 学 习 词 “表演 ”的 上 下 文 向 量 时 ， 注 意 机 种 


个 像样 的 表演 ， 也 没 


c 


比 其 他 词 更 注重 “没有 ”和 “像样 的 ” score( 表 演 , 没有 ) 和 score 


(表演 ， 像 样 的 ) 比 
最 后 ， 本 文 定义 扩 
8 的 拼接 , 然后 用 XX" 


e] p] i X "ED 
[3125.22] TEASER) Y ÓB E, xr EAE 


其 他 的 词 对 值 更 大 。 


, 


和 它 的 上 下 文 向 量 
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EXM, €i 基于 卷 积 神经 网 络 和 Tree-LS TM 的 微 博 情感 分 析 


作为 2.1.2 中 的 CNN 的 输入 。 
x; -x Gg, 


2.1.2 卷 积 神经 网 络 


= 


< 


N- 


卷 积 神经 网 络 可 分 为 四 


情感 分 类 输出 


E 


| 


zi 


Zx o 


输入 层 


注意 力 机 制 得 到 的 台 


z. d 


PARIA SSi] 。 


G) 


B, KRIMA ER DU 


组 词 向 量 和 矩阵 $ 作为 卷 积 


X e R° 是 句子 中 对 应 的 第 


i 个 的 词 向 量 表示 ， 由 于 句子 的 长 度 为 1， 所 以 最 终 的 句子 表示 
为 S'e R?! N 


BRE: 卷 积 层 通过 指定 不 同 的 窗口 值 提取 句子 的 不 同 的 
特征 信息 。 在 卷 积 层 通过 卷 积 核 来 抽取 句子 的 特征 表示 c， 本 
文 设 定 卷 积 的 上 下 文 窗口 的 宽度 为 n， 卷 积 的 权重 矩阵 的 
W e R”” ， 卷 积 后 获得 句子 的 特征 映射 为 

c, =8(W -xl +b) (6) 
其 中 : 1<i<1-n+1; 5 是 特征 映射 中 第 i 个 特征 值 ，g 是 非 线 


性 激活 函数 ， 本 文 卷 积 核 函数 采 


1 E 


文 设 定 m 个 过 滤器 ， 卷 积 操 作 如 


。 为 了 抽取 句 


子 多 个 特征 ， 


] Rectified liner 函数 ; b 是 偏 
在 卷 积 中 使 / 
式 (7) 所 示 。 


] 多 个 过 滤器 。 本 


€; = g(W xL, TO) (7) 

其 中 : Is jm; 卷 积 操作 的 最 终结 果 为 矩阵 Ce ROTD 。 
池 化 层 : 为 了 提取 特征 映射 中 最 重要 的 特征 ， 卷 积 神经 网 
络 对 每 一 个 特征 映射 抽取 到 的 特征 值 ， 只 取 其 中 权重 最 大 的 作 
为 池 化 层 的 的 保留 值 ， 其 他 的 特征 值 全 部 舍弃 。 神 经 元 连接 如 

图 3 所 示 。 通 过 池 化 层 得 到 px; ， 其 计算 公式 为 

1< jsm (8) 
1<jzsm,1zisl-n+1。 然 后 拼接 所 有 的 Ps 组 合成 向 量 


4 
peR" 。 其 中 :m 提取 的 特征 个 数 ;P 代表 句子 级 特征 。 


出 


1 
2 
3 
4 
5 
BH | 7 
fal L7 
卷 积 层 ^ 池 化 层 


输出 层 : 池 化 


图 3 最 大 值 提取 的 池 化 操作 


层 获 取 的 特征 向 量 P 作为 输出 层 的 输入 。 输 
层 选择 softmax 回归 函数 。 为 了 避免 过 拟 合 在 softmax 之 前 


添加 Dropout 层 , 其 思想 是 按照 
具体 计算 如 下 : 


p(y|P,w,,b,,q) = soft max(w,(P ° q) * b) 


定 的 概率 


屏蔽 神经 网 络 单元 。 


(9) 


其 中 : w, e RSM 3n p. e RI 是 softmax 层 的 参数 ，4 是 Dropout 


层 的 屏蔽 向 量 ; 


。 表 示 元 素 相 乘 ，| c | 为 情感 类 别 数 。 


804.02068v1 


" 
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2.1.3 Tree-LSTM 结构 语义 信息 提取 

在 2.1.2 节 卷 积 神经 网 络 池 化 层 中 的 池 化 策略 为 Max 
Pooling， 该 操作 保证 特征 的 旋转 不 变性 ， 不 论 这 个 重要 特征 在 
哪个 位 置 出 现 ， 都 会 不 考虑 其 出 现 位 置 将 其 提取 出 来 。 这 对 图 
像 处 理 是 很 好 的 特性 ， 但 对 于 自然 语言 处 理 ， 特 征 出 现 的 位 置 
很 重要 ， 例 如 主语 一 般 出 现在 句 首 ， 宾 语 一 般 出 现在 句 尾 等 。 
这 些 位 置信 息 在 分 类 任务 里 占有 很 大 比重 ， 但 Max Pooling 把 
这 些 信息 丢 弃 。 为 了 弥补 这 个 缺陷 , 本 文 引 入 树 型 LSTM 。 Tail 
等 人 对 树 型 的 LSTM 结构 作 了 深入 的 剖析 ， 它 根据 句子 语法 的 
树 型 结构 由 底 向 上 递归 地 合并 相 邻 的 节点 。 详 细 的 Tree-LSTM 
结构 如 图 4 所 示 。 


RO 
M 
@ 


图 4 树 型 结构 的 LSTM 网 络 


Tree-LSTM 中 第 j 个 几 点 包含 :记忆 单元 c、 隐 藏 单元 广 、 
输入 门 志和 输出 门 wc o Tree-LSTM 根据 语法 分 析 树 结构 构建 ， 
每 个 单元 依赖 其 他 多 个 孩子 ， 如 图 3 所 示 ， 单 元 1 e 值 依赖 
于 其 他 连 个 孩子 的 c 和 c 。 对 于 任意 一 个 孩 
都 有 一 个 对 应 的 遗忘 门 fx 。 对 于 任意 一 个 二 元 Tree-LSTM 单 
元 J » Cx、hx 分 别 是 节点 的 记忆 单元 和 隐 伟 状态 。 构 建 Tree- 
LSTM 网 络 采用 的 是 句子 成 分 树 ， 所 以 大 取 值 为 1 或 2。Tree- 


节点 上 ， 单 元 j 
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EX, F: 基于 卷 积 神经 网 络 和 Tree- NM AM 分 析 
2.2 混合 神经 网 络 模型 训练 

本 文 模型 属于 有 监督 模型 ， 模 型 根据 输出 的 结果 式 〈9) 计 
算 残 差 并 更 新 模型 参数 。 模 型 更 新 的 参数 包括 卷 积 神经 网 络 和 
Tree-LSTM 的 参数 。 假设 训练 集 的 样本 由 m 个 已 标记 的 样本 构 
成 : (Q.yh..sQ".y")) (符号 约定 ，x BERE nt, ER x, 
=] 为 截 距 项 )。 以 x 为 输入 , 通过 softmax 计算 得 到 句子 的 情感 
AS RUBUS A3 Uds 0 —(0...0, ER 的 条 件 概率 分 布 ， 计 算 
如 下 : 


e 6j: 
Ox 
j 

E L 


其 中 : k 为 标签 数量 〈 本 文 仅 关 注 负 向 和 正 向 两 类 ， 即 k-2). 

接 下 来 训练 模型 参数 9 , IL EISE SE FH 8 SORS E 7935 A ER 
且 引 入 权重 衰减 Cweight decay) 对 参数 进行 正则 化 。 有 具体 计 
算 如 下 所 示 : 


po =j|x,0)= (16) 


1 m k . . ! 
J(9)— Hizo = j}log p(y = j| E 


[mta 


2212 


(17) 
y. 为 句子 的 真实 情感 值 ，P(c |x, 0) 为 预测 的 情感 值 ; 
1() 是 实行 函数 ， 其 取 值 规则 为 ，1{7rue} 21, n 表示 参数 9 的 
数量 ，4 是 正则 化 系数 ， 目 的 是 防止 过 拟 合 提高 泛 化 能 力 。 
A » 0 , 损失 函数 变 成 严格 的 凸 函数 , 这 样 就 保证 了 解 
的 唯一 性 。 本 文 不 模型 训练 采用 小 批量 梯度 下 降 法 训练 法 最 小 
化 损失 函数 7(9), 即 每 次 取 整 个 样本 集 的 一 部 分 计算 梯度 更 新 
权 值 。 当 然 也 可 以 采用 AdsGrad 或 LBFFGS0517 等 方法 优化 参 
数 。 更 新 参数 需要 对 7(9) 求 导 ， 具 体 计算 如 下 : 


Ye7(O)=- 二 > [xy = jpo =j] a8 


梯度 下 降 算 法 依据 偏 导 式 (18) 最 小 化 7V(9) 。 参 数 0 的 更 
新 方式 如 下 
0, «- 0, -AV (OG - 1... k) (19) 
Hop: 为 学 习 率 。 
3 ”实验 
3.1 实验 环境 
本 文 的 实验 环境 及 其 配置 如 表 1 所 示 。 
dl 实验 环境 配置 
实验 环境 环境 配置 
操作 系统 Windows 7 
处 理 器 AMD Athlon X4 750 
内 存 4GB 
编程 语言 Python 2.7 
深度 学 习 框 架 Theano 0.9 


LSTM 神经 网 络 前 馈 过 程 为 
i =0o(W'x; 二 OA tp) (10) 
k=1 
fy 2 0(W^x, Yun, +b) (11) 
"ESI 
o, 2 0(W?x, + Yun, 二 DO) (12) 
k=1 
u, = tanh(W“x, 二 Oo x p?) (13) 
k=1 
2 
c, i, Qu; +) f, c, (14) 
k=1 
h, =0, ® tanh(c;) (15) 
其 中 : o sigmoid 函数 ; b 是 偏 置 项 ; U 表示 孩子 节点 隐 含 值 
得 权重 ，! 表示 第 k 个 孩子 的 节点 的 第 1 个 孩子 节点 ;W 表示 
不 同 结构 内 的 权重 ，@ 表示 向 量 对 应 元 素 相 乘 。 计 算 模型 中 的 
任意 一 单元 ， 其 孩子 节点 采用 不 同 的 参数 和 矩阵。Tree-LSTM 模 
型 通过 逐步 训练 将 树 根 节点 的 隐 含 输出 Pu 作为 句子 的 向 量 
示 。 将 Tree-LSTM 的 输出 的 句子 表示 与 卷 积 神经 网 络 的 池 化 层 


的 句子 表示 拼接 在 一 起 , 得 到 句子 的 最 终 表示 $=[h,hw], 将 
句子 的 最 终 表示 作为 卷 积 神经 网 络 softmax 层 的 输入 。 


3.2 ”实验 数据 集 
本 文 模型 属于 有 监督 的 深度 学 习 模 


型 ， 需 要 较 多 高 质量 的 
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王 文 饥 ， 等 : 基于 卷 积 神经 网 络 和 Tree-LSTM 的 微 博 情感 分 析 


确 性 ， 


2H: 传统 机 器 学 习 ， 在 相同 的 数据 集 ] 
意 力 机 制 组 合 后 的 特征 向 量 作为 输入 ， 分 
(linear regression), XEHE. (SVM) 方法 进 


训练 数据 才能 保证 模型 的 有 效 性 。 本 文采 用 2014 年 中 文 观点 34 本 文 模 型 与 基本 模型 的 对 比 
倾向 性 分 析 评 测 微 博 数 据 集 ， 数 据 集 分 为 训练 数据 和 测试 数据 为 了 验证 模型 的 有 效 性 和 准 
集 。 训 练 数 据 集 包括 官方 公布 和 手工 标注 总 共 8 017 条 微 博 ， 行 性 能 对 比 。 

其 中 积极 数据 4281 条 ， 消 极 数据 3 736 条 。 测 试 数据 选 不 同 第 一 

主题 微 博 数 据 2 317， 其 中 积极 数据 1204 条 ， 消 极 1113 条 。 WAX, KEFA 

通过 多 次 重复 实验 评估 各 个 模型 的 性 能 ， 实 验 的 平均 值 作为 最 。 别 用 线性 回归 

终结 果 。 行情 感 分 


为 了 突出 Att-CTL 模型 的 性 能 , 本 文 还 将 选取 数据 集 5 317 


A. VT 


转移 的 数据 2159 条 和 不 包含 情感 极 性 转移 
E3158 条 ， 分 别 在 W2V+CNN、C-LSTM 模型 和 Att-CTL 
模型 上 实验 。 


3.3 ”实验 可 调 参数 设置 
Zhang 等 人 0 在 句子 分 类 的 任务 对 CNN 进行 了 敏感 性 分 


析 ， 本 文 参照 其 建议 设 


本 文 模型 参数 。 模 型 中 的 参数 通 参数 


主要 有 词 向 量 的 维度 d、 卷 积 核 滑 动 窗口 大 小 n、 卷 积 核 数量 
y= m, Dropout 算法 的 比率 P 。 本 文选 择 Word2vec 工具 中 的 skip- 
E gram 模型 ， 它 由 2000 万 条 的 微 博 语 料 训练 产生 ,，d 的 取 值 为 
© {50,100,150,}。 关 于 CNN 框架 中 的 取 值 组 合 设置 为 (2,3,4)、 
(3,4,5) 和 (4,5,6),m 在 三 种 卷 积 操作 的 三 个 通道 中 保持 不 变 ， 
© 取 值 为 {100,200,300}。d、n 和 m 三 种 参数 构成 了 27 种 组 合 ， 
epo 实验 通过 网 格 搜索 的 方法 调 参 。Tree-LSTM 的 输出 维度 与 CNN 
CO 的 特征 映射 数 保持 一 致 ， 以 更 好 地 融合 成 最 终 的 句子 表示 ， 其 
= 维度 设置 为 300。 将 平均 实验 结果 最 优 的 参数 组 合作 为 最 终结 
CO 果 ， 实 验 参 数 如 表 2 所 示 。 
N 
> A2 模型 参数 设 
>< 参数 名 值 
© 词 向 量 纬度 50 
= 上 下 文 窗口 值 34,5 
- 卷 积 单元 个 数 100,100,100 
Q m 
Tree-LSTM 输出 维度 300 
比率 p 0.5 


实验 结果 发 现 ， 模 型 的 训练 的 迭代 次 数 对 情感 分 析 影 响 很 
大 ， 达 代 次 数 的 越 大 模型 对 训练 数据 的 拟 合 越 好 ， 这 样 会 导致 


过 拟 合 问 题 。 
5 Em) F 值 都 能 达到 85% 左 右 ， 


和 测试 数 


如 图 


5 所 示 ， 当 过 代 次 数 为 15 次 数 ,在 j 
大 


| 练 数据 
此 ,实验 设置 训练 


迭代 次 数 为 15 次 。 


10 15 20 


一 全 一 训练 集 ”一 一 测试 集 


5 ARRAZEN h R 


区 | 


其 中 Linear regression 是 一 个 线性 


在 情感 分 
第 三 
词 向 量 ， 


型 ,证 
第 三 
第 三 组 : 


E 明 添加 注意 力 机 制 


类 来 证 明 Att-CTL 模型 在 情感 分 析 任 务 上 的 性 能 
模型 、SVM 构造 一 个 超 平面 
取得 过 较 好 的 结果 


类 任务 中 
组 : 


Skip-gram +CNN. 


19] 


设计 六 组 实验 对 模型 进 


EF， 为 保证 实验 


RA- 


模型 采 


将 句子 特 生 


E 和 矩阵 输入 基于 注意 机 


后 模型 


、 四、 五 组 ; 


在 情感 分 忆 


模型 池 化 


EN 


第 六 组 : W2V-CNN, Kim 11 


的 模型 。 


向 量 的 卷 
更 胜任 情 


DAE 
感 分 析 任务 。 


3.5 实验 结果 分 析 


提取 句法 结构 
H Zhou 等 人 外 提出 的 基于 卷 积 
序列 结构 模型 


skip-gram 模型 训练 
URS ARA 
任务 上 的 性 
Éf skip-gram 模型 训练 的 词 向 量 作 为 输入 。 
Att-CNN 模型 ， 基 于 注意 力 机 制 
Cattention based convolution neural network, 
神经 网 络 模型 的 输入 端 融入 注意 力 机 制 ， 证 
层 之 后 融入 Tree-LSTM 在 
第 四 组 : C-LSTM 模型 ， 模 型 来 
经 网 络 和 长 短期 记忆 神经 网 络 的 
CTL 模型 中 Tree-LSTM 的 融入 方式 在 情感 分 析 上 


经 网 络 模 
RA. 


2t 
He 


的 卷 积 神 
Att-CNN) 
明 在 卷 积 
的 性 


经 网 络 
在 卷 积 
经 网 络 


能 优势 。 


， 证 明 Att- 
的 有 效 性 。 


五 组 : Att-CTL 模型 ， 本 文 融合 注意 力 机 制 、 


Tree-LSTM 进行 


的 基于 word2vec 训练 的 词 
经 网 络 模型 ， 证 明 Att-CTL 模型 比 传统 卷 积 方法 


在 机 


器 学 习 、 


常 采 用 精确 率 (precisio 


价 指标 通 


Precision 


评估 的 是 查 准 率 ，recall Ui 


n) AE 


然 语 言 处 理 中 评估 是 一 个 重要 的 环节 ， 评 
率 (recalD)) 和 Fl-measure。 
EF 估 的 是 查 全 率 ，F1 值 是 综 


合 评 价 指标 。 六 组 实验 在 COAE2014 微 博 数 据 集 上 三 个 指标 的 


测评 结果 


如 表 3 所 示 。 


表 3 不 同 模型 的 测试 结果 


模型 Precision Recall Fl 
Linear regression 0.5108 0.4710 0.4865 
SVM 0.7172 0.7204 0.7188 
Skip-gram-CNN 0.7468 0.7061 0.7258 
Skip-gram* Att-CNN 0.8217 0.7587 0.7889 
C-LSTM 0.8409 0.7511 0.7934 
W2V-CNN 0.7558 0.7103 0.7323 
Att-CTL (X) 0.8712 0.7458 0.8036 


实验 


结果 表明 ， 采 


] CNN 的 模型 在 情感 分 类 任务 上 总 体 


优 于 机 器 学 习 方 法 ，Att-CTL 模型 在 Precision 结果 最 优 ， 较 其 


他 模型 有 


较 大 提升 。 基 于 六 


ER JINU 


KJAJ Att-CNN 和 Att-CTL 模 


模型 W2V+CNN 在 准 


F1 值 上 Att-CTL 模型 


E 确 率 和 召 


分 别 高 于 C-LSTM f 


可 率 上 都 有 


提升 。 在 


I Att-CNN 模型 ， 取 
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得 了 最 好 的 结果 。 
将 Linear regression 和 SVM 方法 与 W2V+CNN 模型 对 比 。 
在 分 布 式 词 向 量 特征 表示 的 基础 上 ， 卷 积 神经 网 络 模型 在 特征 
构建 上 优 于 机 器 学 习 方法 ， 且 卷 积 神经 网 络 通过 局 部 感知 野 和 
权 值 共享 ， 减 少 了 模型 参数 。W2V+CNN 模型 在 F1 上 明显 高 
于 这 两 种 模型 ， 证 明 卷 积 神经 网 络 在 情感 分 类 上 的 出 色 表 现 。 


EXI, 4i 基于 省 积 神经 网 络 和 Tree-LSTM 的 


十 | 
分 析 


转移 句 式 数据 上 的 Fl 变化 不 大 ， 同 时 也 是 实验 的 最 好 结果 ， 
表明 Att-CTL 模型 在 转折 句 式 上 准确 处 理 情感 分 类 任务 的 充分 


4 ”结束 语 


本 文 深入 分 析 卷 积 神经 网 络 的 内 部 结构 ， 针 对 微 博 句 子 存 
在 的 极 性 转移 现象 在 句 卷 积 神经 网 络 模型 的 输入 层 之 前 引入 注 


将 Skip-gram+Att-CNN 与 Skip-gram+CNN 模型 作对 比 , 在 
Fl 上 提升 了 6.3196. 以 skip-gram 模型 训练 的 词 向 量 作为 输入 ， 
在 相同 的 卷 积 神经 网 络 条 件 下 ， 采 用 注意 力 机 制 获得 长 距离 上 
下 文 信息 的 Att-CNN， 能 有 效 提升 文本 情感 分 析 的 准确 率 。 
将 Att-CTL 与 Att-CNN 模型 作对 比 ,两 者 都 以 基于 注意 力 
机 制 重组 的 上 下 文 词 向 量 作 为 输入 。 将 Att-CTL 模型 与 C- 
LSTM 模型 作对 比 ， 两 者 以 不 同 的 组 合 方式 获得 句子 表示 ， 本 
文 的 组 合 方法 能 更 准确 地 的 进行 情感 分 类 。 
为 了 突出 本 文 模型 的 注意 力 机 制 在 解决 长 距离 的 上 下 文 相 


关 性 特性 ， 采 用 句子 情感 极 性 转移 的 数据 集 测试 模型 性 能 。 其 
实验 结果 如 图 6 一 8 所 示 。 
09 
085 
B 08 
E 075 
È 07 
0.65 
06 


W2V+CNN CLST™ Att-CTL 


口 全 部 微 博 国 极 性 转移 句 式 口 非 极 性 转移 句 式 


DS 


6 实验 结果 的 准确 率 
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W2V+CNN 和 C-LSTM 模型 在 极 性 转移 句 式 的 Precision 
指标 都 明显 低 于 非 极 性 转移 句 式 , 而 Att-CTL 模型 在 极 性 转移 
句 上 的 性 能 指标 有 很 大 提升 ， 与 非 极 性 转移 句 式 保持 很 小 的 差 
别 。 特 别 从 图 8 得 出 ， 在 总 微 博 数 ， 极 性 转移 句 式 和 非 非 极 性 


CC 


意 力 机 制 解决 了 非 连续 词 之 间 的 相关 性 问题 。 为 了 获得 句子 的 
结构 特征 ,利用 树 型 结构 的 LSTM 学 习 文 本 特征 并 将 其 与 卷 积 
神经 网 络 的 池 化 层 输出 相 融 合 组 成 最 终 的 文本 表示 。 本 文 模型 
在 解决 情感 极 性 转移 现象 的 同时 ， 还 获取 了 文本 的 结构 信息 ， 
使 学 习 到 的 特征 更 加 丰富 。 在 COAE2014 数据 集 进 行 训练 和 测 
试 ， 证 明基 于 注意 力 机 制 的 卷 积 神经 网 络 和 树 型 结构 的 长 短期 
记忆 神经 网 络 模 型 能 更 准确 地 完成 情感 分 析 任 务 。 
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